在大數據 (Big Data) 的特性中,「資料量 (Volume)」指的是什麼?
A
數據的規模或大小,通常達到 TB (Terabytes) 或 PB (Petabytes) 等級。
大數據的第一個 V,資料量 (Volume),直接指數據的規模或數量級。傳統數據處理工具難以應對如此龐大的數據量。速度 (Velocity) 指數據流動的速度,多樣性 (Variety) 指數據的種類,真實性 (Veracity) 指數據的質量。
描述大數據 (Big Data) 處理即時串流資料 (real-time streaming data) 的能力,是指哪個特性?
速度 (Velocity) 是指數據生成、收集和處理的速度。在大數據時代,數據經常是以高速、連續的串流形式產生(例如IoT感測器數據、社交媒體貼文),需要系統具備即時或近乎即時的處理能力。
包含文字、圖像、影片和聲音等多種格式的數據,體現了大數據 (Big Data) 的哪個特性?
多樣性 (Variety) 指的是數據來源和格式的多樣化。大數據不僅包括傳統的結構化數據 (Structured Data)(如資料庫表格),還包括大量的非結構化數據 (Unstructured Data)(如文字、圖像、音頻、視頻)和半結構化數據 (Semi-structured Data)(如JSON、XML)。
在資料庫中,具有固定欄位和資料類型,如同試算表一樣的資料是屬於哪種類型?
B
非結構化數據 (Unstructured Data)
C
半結構化數據 (Semi-structured Data)
結構化數據 (Structured Data) 是指具有預定義格式和固定欄位的數據,通常儲存在關聯式資料庫 (Relational Database) 中,易於查詢和分析。試算表是典型的結構化數據。非結構化數據沒有固定格式(如文本、圖像),半結構化數據有某些組織結構但非固定欄位(如JSON),元數據是描述數據的數據。
電子郵件的內文通常被歸類為哪種類型的數據?
B
非結構化數據 (Unstructured Data)
C
半結構化數據 (Semi-structured Data)
非結構化數據 (Unstructured Data) 指沒有固定內部結構或預定義模型的數據。電子郵件內文、社交媒體貼文、圖片、影片等都屬於此類,分析起來比結構化數據更複雜。
JSON (JavaScript Object Notation) 或 XML (Extensible Markup Language) 文件是哪種數據類型的典型範例?
B
非結構化數據 (Unstructured Data)
C
半結構化數據 (Semi-structured Data)
半結構化數據 (Semi-structured Data) 介於結構化和非結構化之間,它不符合傳統資料庫的固定表格模式,但包含標籤 (tags) 或標記 (markers) 來區分語義元素和強制執行記錄與欄位之間的層次結構。例如 JSON 和 XML 文件。
學生的「考試分數」(例如 0 到 100 分)屬於哪一種資料型態 (Data Type)?
A
數值型數據 (Numerical Data) - 連續型 (Continuous)
B
數值型數據 (Numerical Data) - 離散型 (Discrete)
C
類別型數據 (Categorical Data) - 名目型 (Nominal)
D
類別型數據 (Categorical Data) - 次序型 (Ordinal)
考試分數是數值型 (Numerical),因為它是可以測量的數字。理論上分數可以在一個範圍內取任何值(例如可以有小數點),因此更傾向於連續型 (Continuous)。連續型數據可以在給定範圍內取任何值,而離散型 (Discrete) 數據只能取特定的、可數的值(如學生人數)。類別型 (Categorical) 數據代表類別或標籤。
"班級人數"是哪種資料型態 (Data Type)?
A
數值型數據 (Numerical Data) - 連續型 (Continuous)
B
數值型數據 (Numerical Data) - 離散型 (Discrete)
C
類別型數據 (Categorical Data) - 名目型 (Nominal)
D
類別型數據 (Categorical Data) - 次序型 (Ordinal)
班級人數是數值型 (Numerical),因為是數字。它只能是整數(不能有半個人),是可以計算的特定值,所以屬於離散型 (Discrete) 數據。
將客戶依照「性別」(男、女)分類,這種數據屬於?
B
類別型數據 (Categorical Data) - 次序型 (Ordinal)
C
類別型數據 (Categorical Data) - 名目型 (Nominal)
類別型數據 (Categorical Data) 用於表示不同的類別或群組。名目型 (Nominal) 數據是沒有內在順序的類別,例如性別、血型、顏色。次序型數據則是有順序的類別(如滿意度:非常滿意 > 滿意 > 普通)。布林型只有 True/False 兩種值。
客戶滿意度調查結果,選項為「非常滿意、滿意、普通、不滿意、非常不滿意」,這是哪種資料型態 (Data Type)?
A
數值型數據 (Numerical Data) - 離散型 (Discrete)
B
類別型數據 (Categorical Data) - 名目型 (Nominal)
C
類別型數據 (Categorical Data) - 次序型 (Ordinal)
次序型 (Ordinal) 數據是類別型 (Categorical) 數據的一種,其類別之間具有明確的順序或等級關係,但無法量化差異。滿意度等級(非常滿意 > 滿意 > ...)就是典型的次序型數據。
公司內部的客戶關係管理 (CRM, Customer Relationship Management) 系統中的客戶資料,屬於哪種資料來源 (Data Source)?
D
第三方資料 (Third-party Data)
內部資料 (Internal Data) 是指由組織自身在營運活動中產生和收集的數據。CRM 系統、企業資源規劃 (ERP, Enterprise Resource Planning) 系統、銷售紀錄、網站日誌等都屬於內部資料。外部資料來自組織外部,公開資料是可自由使用的外部資料,第三方資料是從外部購買的資料。
政府資料開放平臺 (Open Data Platform) 上提供的人口統計數據,屬於哪種資料來源 (Data Source)?
B
外部資料 (External Data) - 公開資料 (Open Data)
外部資料 (External Data) 來自組織外部。公開資料 (Open Data) 是外部資料的一種,指由政府或非營利組織等機構發布,可供任何人自由使用、重製和分享的數據。政府開放平台上的數據是典型的公開資料。
透過網路爬蟲 (Web Scraping) 技術從公開網站收集的產品評論,主要屬於哪一類資料來源 (Data Source)?
公開網站上的產品評論是來自公司外部的資訊來源,且通常是公開可存取的,因此屬於外部公開來源。網路爬蟲 (Web Scraping) 是一種從網站自動提取數據的技術。
在人工智慧 (AI, Artificial Intelligence) 專案中,資料 (Data) 主要扮演什麼角色?
資料 (Data) 是人工智慧 (AI),尤其是機器學習 (ML, Machine Learning) 的核心驅動力。AI 模型透過分析大量的資料來學習模式、識別關係並做出預測或決策。沒有足夠且高品質的資料,AI 模型就無法有效地學習和運作。
用於訓練機器學習 (ML) 模型,並且已經標註了正確答案或輸出的資料集稱為什麼?
A
訓練資料集 (Training Dataset)
C
驗證資料集 (Validation Dataset)
在監督式學習 (Supervised Learning) 中,訓練資料集 (Training Dataset) 是包含輸入特徵和對應正確輸出(標籤)的數據,模型使用這個資料集來學習輸入和輸出之間的關係。測試資料集用於評估訓練好的模型性能,驗證資料集用於調整模型超參數,原始資料是未經處理的數據。
確保資料集中的數據反映真實世界的情況,並且沒有錯誤或誤導性信息,是指資料品質的哪個面向?
準確性 (Accuracy) 是衡量數據與其所代表的真實世界實體或事件相符的程度。高準確性的數據對於建立可靠的 AI 模型至關重要。完整性指數據沒有缺失值,一致性指數據在不同地方表示一致,及時性指數據是最新的。
資料集中缺少某些欄位的值,會影響資料品質的哪個面向?
完整性 (Completeness) 指的是數據記錄中是否存在缺失值。不完整的數據會導致分析結果偏差或模型性能下降。處理缺失值是數據前處理的重要步驟。獨特性指數據記錄沒有重複。
關於大數據 (Big Data) 的「真實性 (Veracity)」,下列敘述何者正確?
真實性 (Veracity) 是大數據的關鍵特性之一,它關注的是數據的品質和可信度。由於大數據來源多樣,可能包含雜訊、錯誤、偏差或不一致性,因此評估和處理數據的真實性非常重要。
從龐大的數據中提取有用的見解和商業價值,是指大數據 (Big Data) 的哪個特性?
價值 (Value) 是大數據的最終目標。儘管數據量大、速度快、種類多,但如果不能從中提取出有意義的資訊、洞察或可執行的決策,那麼這些數據本身就沒有商業價值。數據的價值密度通常不高,需要透過分析來發掘。
哪種檔案格式常用於儲存表格形式的結構化數據 (Structured Data),並使用逗號分隔值?
A
JSON (JavaScript Object Notation)
B
XML (Extensible Markup Language)
C
CSV (Comma-Separated Values)
CSV (Comma-Separated Values) 是一種簡單的文本格式,用於儲存表格數據(數字和文本)。每行代表一條記錄,每條記錄中的欄位用逗號分隔。它廣泛用於數據交換。JSON 和 XML 是半結構化數據格式,TXT 是純文本。
哪種資料庫類型最適合儲存關係固定、結構清晰的數據,如客戶訂單資料?
A
關聯式資料庫 (Relational Database) (e.g., MySQL, PostgreSQL)
B
NoSQL 資料庫 (Not Only SQL Database) (e.g., MongoDB)
C
圖形資料庫 (Graph Database) (e.g., Neo4j)
D
時間序列資料庫 (Time Series Database) (e.g., InfluxDB)
關聯式資料庫 (Relational Database) 使用表格來儲存數據,表格之間可以建立關聯。它非常適合儲存結構化、關係明確的數據,並支援複雜的 SQL (Structured Query Language) 查詢。NoSQL 適用於非結構化或半結構化數據,圖形資料庫用於儲存關係數據,時間序列資料庫用於儲存時間相關數據。
從物聯網 (IoT, Internet of Things) 設備持續收集溫度、濕度等數據,是哪種資料收集方法 (Data Collection Method)?
C
感測器數據收集 (Sensor Data Collection)
物聯網 (IoT) 設備上的感測器 (Sensors) 可以自動、持續地收集環境數據(如溫度、濕度、光線、壓力等)或狀態數據。這種方法稱為感測器數據收集 (Sensor Data Collection)。問卷和訪談是主動向人收集信息,網路爬蟲是從網站提取數據。
一家公司想要了解市場上競爭對手的產品價格,他們可能會使用哪種方法從電商網站自動收集資訊?
網路爬蟲 (Web Scraping) 是自動化地從網站上提取大量信息的技術。公司可以利用爬蟲定期抓取競爭對手在電商網站上公開的產品價格、規格等信息,進行市場分析。
由研究人員直接透過實驗或觀察收集而來的第一手資料稱為什麼?
初級資料 (Primary Data) 是指研究者為了特定的研究目的而首次收集的原始資料,例如透過問卷、訪談、實驗直接取得的數據。相對地,次級資料 (Secondary Data) 是指由他人收集、已經存在的資料,研究者將其用於新的分析目的,例如使用政府統計數據或已發表的研究報告。
研究人員使用政府公布的人口普查數據來分析地區的教育水平,這些數據屬於?
C
實驗資料 (Experimental Data)
D
觀察資料 (Observational Data)
次級資料 (Secondary Data) 是先前由他人為其他目的收集的數據。政府人口普查數據是由政府收集發布的,研究人員將這些現有數據用於自己的分析,因此屬於次級資料。
描述數據的數據(例如,資料的來源、創建日期、格式等)稱為什麼?
元數據 (Metadata) 是「關於數據的數據」。它提供了數據的背景資訊,例如數據的定義、來源、格式、結構、創建時間、權限等,有助於理解、管理和使用數據。
如果一個客戶的年齡在一個資料表被記錄為 30 歲,在另一個表被記錄為 35 歲,這違反了資料品質的哪個面向?
一致性 (Consistency) 指的是數據在不同的系統或記錄中保持一致,沒有矛盾。同一個客戶在不同地方有不同的年齡記錄,就表示數據存在不一致的問題。
分析上個月的銷售數據來預測下個月的趨勢,這主要依賴資料品質的哪個面向?
及時性 (Timeliness) 指的是數據是否在其需要的時間範圍內可用且是最新的。使用過時的數據進行預測可能會導致不準確的結果。分析上個月的數據來預測下個月,就要求上個月的數據是及時可用的。
在機器學習 (ML) 中,模型的「輸入」通常稱為什麼?
特徵 (Features) 是模型用來進行預測或分類的輸入變數或屬性。標籤 (Labels) 是監督式學習中模型要預測的目標輸出。樣本 (Samples) 是資料集中的單個數據點或實例。參數 (Parameters) 是模型在訓練過程中學習到的內部變數。
下列何者不是直接從資料中學習,而是基於一組預先定義的規則來運作的系統?
專家系統 (Expert System) 是一種早期的 AI,它基於人類專家的知識和經驗,將其編碼成一組「如果-那麼」(If-Then) 的規則,用來解決特定領域的問題。它不從數據中學習,而是依賴預先定義的規則庫。而監督式、非監督式和強化學習都是機器學習的方法,需要從資料中學習。